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+ Introdução + Introdução 


= Definições 
= MD é à busca por informação valiosa em grandes 


volumes de dados Mineração de Dados 
(S. M. Weiss and N. Indurkhya) 


= MD é a análise de conjuntos de dados 
observacionais (geralmente grandes) para 
encontrar relacionamentos desconhecidos em 
novas formas que são ambos compreensíveis e 
úteis para o proprietário dos dados 


(D. Hand, H. Mannila and P. Smyth) Estatística Computação 
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+ Conceitos Básicos de MD + Conceitos Básicos de MD 


= MD extrai modelos a partir de dados = MD lida com dados de observações, não 
observados dados experimentais 
= Modelos representam o conhecimento = Dados que foram coletados para um propósito 
: : diferente de análise por MD 
induzido o 
= Ex. Dados coletados para atualizar registros de pacientes 


= Análise de modelo por ser humano de um hospital 
= Subjetivo = Objetivos da aplicação não deve influenciar a 


« Avalia se os modelos trazem conhecimento EtcEqace caco. 
útil ou interessante = Maioria dos metodos de MD são baseados em 
algoritmos de Aprendizado de Máquina (AM) 
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4 Aprendizado de Máquina + Aplicações de AM 


= Investiga técnicas computacionais capazes de = Programas baseados em AM têm sido 
adquirir automaticamente bem sucedidos para: 
: na dr « Reconhecer palavras faladas 
Neve nca o = Reconhecimento de faces 


= Novas formas de organizar o conhecimento 
existente = Predizer taxas de cura de pacientes de 


E as o pneumonia 
eo Detect fraudulento de cartões de crédit 
= Técnicas de AM podem melhorar seu desempenho Ns Cro eus ces ese 


em uma dada tarefa utilizando experiências prévias = Analisar dados de expressão gênica 
Mitchell, 1997 = Prever estrutura de proteínas 


André Ponce de Leon F de Carvalho 


4 Aplicações Clássicas de AM 4 ALVINN 


= Aprender a reconhecer palavras faladas a 
= SPHINX (Lee 1989) 
= Aprender a conduzir um automóvel 
= ALVINN (Pomerleau 1989) 
= Aprender a classificar objetos celestiais 
= (Fayyad et al 1995) 
= Aprender a jogar gamão Dean Pomerleau 
= TD-GAMMON (Tesauro 1992) ENA 





4 ALVINN 4 ALVINN 


= Sistema automático de navegação para 
automóveis = 960 entradas SEA 
= Baseado em uma câmera montada no « Matriz 30x32 derivada dos jo À tda 


= Utiliza uma Rede Neural 


pixels de uma imagem 


a = 4 unidades intermediárias 
= Dirigiu a 70 M/h (110 Km/h) em uma dades dE 


rodovia publica americana cCadaunase ese niitda 


= De costa a costa em 1989 por 2850 milhas um comando para a direção Sina Sensor 
(com exceção de 50 milhas) 


veículo 
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+ Carros da Google + Google car 


= Stanford Artificial Intelligence Laboratory 
= Sebastian Thrun 


= Comunicação por sensor (topo do carro) 
= Recebe informação do Google street view 
= Atua no volante de direção e nos pneus 
= 175,000 milhas sem acidentes 


= Estado de Nevada aprovou lei permitindo 


driverless cars (Março 2012) http://www.omg-facts.com/Technology/Google-has-developed-a- 
driverless-car/51099 
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+ Google car + Curiosity 


= Robô Mars 
= NASA e Jet Propulsion laboratory 
= Mais de 1 tonelada 
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4 Algoritmos de AM 


= Grande número 
= Agrupamento de dados (K-médias) 
Algoritmos de indução de Árvores de Decisão 
K-NN 
Máquinas de Vetores de Suporte 
Naive Bayes 
Raciocínio Baseado em Casos 
Redes Neurais Artificiais 
Sistemas Inteligentes Híbridos 
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+ Algoritmos de AM + Viés indutivo 


= Podem ser agrupados por diferentes critérios = Indução de hipóteses 
= Baseados em distâncias = Aprender a partir de um conjunto de 
= K-NN exemplos 


= Baseadas em otimização = Induzir modelo ou hipótese 
= RNs - Aplicar a novos dados 


« Baseados em probabilidade = Todo algoritmo de AM indutivo tem um 
« NB, SVMs viés 

= Baseadas em procura = Tendência a privilegiar uma dada hipótese 
« Indução de ADs ou um dado conjunto de hipóteses 
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+ Viés indutivo + Viés de representação 


= Pode ser: | | 


= Viés de preferência ou busca 
= Como as hipóteses são pesquisadas no espaço de 
hipóteses 
= Preferência de algumas hipóteses sobre outras 
= Ex.: preferência por hipóteses simples (curtas) 


iÁ 3 i | Se Peso > 50 então Doente 
MES fe eprentace Ou am Doente Saudável Doente | se Peso < 50 e Sexo = M então Doente 
= Define o espaço de busca ou de hipóteses ! 


= a ' Se Peso < 50 e Sexo = F então Saudável 
= Restrição das hipoteses que podem ser geradas E =" | 
= Ex.: hipóteses podem conter apenas regras conjuntivas Arvore de decisão | Conjunto de regras 


0.45 0.11 0.91 0.34 -0.20 0.88 


0.45 -0.40 0.54 0.12 0.98 0.37 
-0.29 0.32 -0.25 -0.51 0.41 0.70 


Redes neurais 


+ Vieés indutivo 


= Algoritmos de AM precisam ter um viés 
indutivo 
= Necessário para restringir o espaço de 
busca 
= Se não houvesse viés não haveria 
generalização 


= Regras / equações seriam especializados para 
os exemplos individuais 





13/09/2012 


Atributos de entrada (preditivos) 


J 





[ 


j 
Nome Temp. Idade Peso Altura 





João 37 94 190 ; Saudável 
Maria 38 60 172 ; Doente 
Exemplos | | José 39 70 185 | Doente 
(objetos, Sílvia 38 65 160 | Saudável 
padrões) Pedro 37 90 168 | 


4 Conjunto de Dados 4 
dos Predio 
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4 Classificação Classificação 


= Objetivo: aprender uma função que mapeia : 
um exemplo em uma dentre N classes 
E Técnica de AM E 


= Exemplos: 
= Classificar aplicação para um cartão de crédito É o o. Classificador 
como boa ou ruim 
= Classificar tecido como normal ou cancerígeno 
= Definir se um paciente tem ou não uma doença 


“EXE S 


novo dado 
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Classificador 


Classificação 4 Classificação 


= Como classificar”? = Problema linear 








À Saudável + À Saudável 


O Doente , A O Doente 


Exame 1 




















Classificação 


= Como classificar”? 








À Saudável 


O Doente 


Exame 1 








Classificação 


= Como classificar”? 








À Saudável 


O Doente 


Exame 1 








Classificação 


= Overfitting 





À Saudável 


O Doente 
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Classificação 


= Problema não linear 





À Saudável 


O Doente 








Classificação 


= Problema não linear 





À Saudável 


O Doente 





Classificação 


= Algoritmos 
= Árvores de Decisão (C4.5) 
= Conjuntos de regras 
= Redes Neurais 
= Máquinas de Vetores de Suporte 
= K-NN 
= Regressão Logística 
= Redes Bayesianas 


André Ponce de Leon F de Carvalho 


13/09/2012 


+ Regressão + Problema de regressão 


= Objetivo: aprender uma função que 

mapeia um exemplo em um valor real 

= Caso especial: análise de séries temporais Função aproximada 
= Exemplos: 

= Prever valor de mercado de um imóvel 

= Prever o lucro de um empréstimo bancário 
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+ Regressão + Regressão 


= Overfitting = Underfitting 


Ano 
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4 Regressão 


= Técnicas 
= Árvores de Regressão 


UM] 
= Redes Neurais Artificiais 
= Máquinas de Vetores de Suporte Ú | À) ALI) IO 
= Regressão Linear 
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He Agrupamento (Clustering) He Agrupamento 


= Objetivo: organizar exemplos não 
rotulados em grupos (clusters) 


= De acordo com uma medida de similaridade 
ou correlação entre eles 


= Aprendizado não supervisionado 

= Não existe conhecimento anterior sobre: 
= Número de grupos (várias vezes) 
= Significado dos grupos 


Exame 1 
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He Agrupamento He Agrupamento 


= Técnicas 
= Redes Neurais SOM 
= K-médias 
= FCM 
= DBSCAN 
= Single-Link 


André Ponce de Leon F de Carvalho André Ponce de Leon F de Carvalho 


4 Sumarização He Sumarização 


= Objetivo: encontrar descrição simples e 
compacta para um conjunto de dados 
= Frequentemente utilizada para: 
= Exploração interativa de dados 
= Geração automática de relatórios 


= Exemplo: 


= Definir o valor médio de compras feitas nos finais 
de semana em um supermercado 
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+ Sumarização + Sumarização 


= Técnicas podem ser divididas em: 
SECR | E 
= Média 
= Mediana 
= Desvio padrão 


= Mais sofisticadas: 


Idade média: 29.6 « Regras de sumarização 
Mediana da idade: 30 PRE : Gon a ua dê 
sexo mais presente: M = Técnicas de visualização multivariadas 


Menor altura: 160 
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He Exercício 4 Regras de Associação 


= Sumarizar cadastro de pacientes abaixo: = Objetivo: dado um conjunto de itens e 
uma base de dados de transações 


= Encontrar um conjunto de regras de 
associação entre os itens 


= Exemplo: 


= Procurar por itens que são frequentemente 
comprados juntos 
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+ Regras de Associação + Regras de Associação 
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40% dos clientes compram pão e queijo 
75% dos clientes que compram queijo 
também compram massa 
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+ Conclusão + Perguntas 


Mineração de Dados 
Aprendizado de Máquina 
Algoritmos 

= Viés indutivo 

Tarefas 

= Preditivas 

= Descritivas 
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He Interesting links 


http://www.youtube.com/watch?v=PObfRqNrwfM&feature=player emb 
edded 


http://www.youtube.com/watch?v=cd alpUUE 
<iframe width="640" height="360" 


src="http://www.youtube.com/embed/PObfRaNrwWfM?feature=player e 
mbedded" frameborder="0" allowfullscreen></iframe> 


http://www.omg-facts.com/Technology/Google-has-developed-a- 


driverless-car/51099 
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